Un modèle de recherche d'information dans des pages Web structurées en blocs
نویسنده
چکیده
Dans le contexte de la recherche d’information sur le Web, nous présentons ici un modèle pour l’indexation et l’interrogation de pages Web utilisant aussi bien le contenu textuel que leur rendu visuel. Une page Web est considérée comme un ensemble de blocs contenant de l’information multimédia. La représentation visuelle d’un bloc (taille de police, couleur de fond, . . .), ainsi que sa taille et sa position dans la page donnent des informations sur son importance. De plus, un bloc peut être perméable au contenu d’autres blocs : il peut recevoir de l’information de la part de blocs voisins ou de blocs qu’il contient (par exemple, le texte entourant une image peut être utilisé pour indexer cette image). Un autre avantage de la décomposition des pages Web en blocs est que les réponses à une requête peuvent être localisées précisément : un bloc contenant les termes d’une requête peut être renvoyé à la place de la page complète.
منابع مشابه
Expérimentations sur un modèle de recherche d'information utilisant les liens hypertextes des pages Web
Résumé. La fonction de correspondance, qui permet de sélectionner et de classer les documents par rapport à une requête est un composant essentiel dans tout système de recherche d'information. Nous proposons de modéliser une fonction de correspondance prenant en compte à la fois le contenu et les liens hypertextes des pages Web. Nous avons expérimenté notre système sur la collection de test TRE...
متن کاملModélisation de relations dans l'approche modèle de langue en recherche d'information
RÉSUMÉ. Nous abordons dans cet article le problème de la prise en compte de relations (par exemple de nature syntaxique ou sémantique) dans un modèle de langues en recherche d’information. En particulier, nous proposons, sur la base du modèle de langue, un cadre complet pour la prise en compte de relations, étiquetées ou non. Afin d’illustrer ce cadre, nous avons conduit une série d’expériences...
متن کاملIndexation de blocs extraits de pages Web en utilisant le rendu visuel
RÉSUMÉ. Cet article présente un modèle d’indexation de pages Web basé sur leur rendu visuel. Dans ce modèle, une page Web n’est plus considérée comme un tout, mais comme la combinaison d’un ensemble de blocs dont chacun porte sa sémantique propre. L’indexation d’une page Web est réalisée en deux étapes : (1) construction d’un arbre hiérarchique de blocs visuels, en s’appuyant sur la disposition...
متن کاملIntégration de la structure dans un modèle probabiliste de documents
Résumé. En fouille de textes comme en recherche d’information, différents modèles, de type probabiliste, vectoriel ou booléen, se sont révélés bien adaptés pour représenter des documents textuels mais, ces modèles présentent l’inconvénient de ne pas tenir compte de la structure du document. Or la plupart des informations disponibles aujourd’hui sur Internet ou dans des bases documentaires sont ...
متن کاملUn modèle de rôles multi-politiques d'accès pour la coopération en sécurité de systèmes d'information
RÉSUMÉ. Ce travail de recherche s'inscrit dans le domaine de la sécurité des accès dans les systèmes d'information coopérant. La modélisation proposée doit prendre en compte l'interopération de systèmes d'information ouverts et évolutifs et, de plus, garantir le respect des différentes politiques de sécurité locales. La coexistence de sources d’information hétérogènes dans le cadre d’un système...
متن کامل